Diskuze: GPU-Tech a využití GPU k výpočetním úkonům

Diskuze k článku: GPU-Tech a využití GPU k výpočetním úkonům

22.6.2007, Bohumil Federmann, aktualita

Ve vývoji procesorů se před několika lety objevily architektury NetBurst a Hammer a zde někde lze nalézt zásadní rozchod dvou hlavních rivalů ve stylu zpracování informací. NetBurst stavěl na vysokých frekvencích - Hammer na vyšším IPC a...

Dragon_888 | 6.7.20078:23

Dá se toho v dnešní době využít? Myslím jako rozšířit ovladače grafické karty, aby počítali i pomocí grafiky :-)

Odpovědět0 0

Federmann (487) | 7.7.200718:03

určitě

Odpovědět0 0

Dragon_888 | 7.7.200719:44

a nevíte někdo tedy kde se dá sehnat určitý soft nebo co je k tomu potřeba?

Odpovědět0 0

freon (24) | 24.6.200717:49

bylo by to hezke kdyby, slo nechat delat graficke jadro praci procesoru, jenze je tu jedno velke ALE! problem je v tom ze gpu je silne jednoucelova jednotka, ktera je stavena jen na urcity a uzky okruh operaci. Napriklad neni vubec schopna provadet operace nad skalary, finta previst skalar na jednoprvkovy vektor bohuzel napomaha. Kdezto cpu je viceucelovy stroj, ktery zvlada vetsi mnozstvi nejruznejsi opraci. Muzete s nim scitat, odcitat, jednotliva cisla, vektory, tenzory atd...
Pricist jen tak pocet operaci, ktere zvladne gpu k poctu co zvlada cpu nejde. Mozna bude vas procesor scitat matice rychleji, ale kryptograficky klic vygeneruje za stejnou dobu, protoze to gpu proste neumi.

Odpovědět0 0

Federmann (487) | 24.6.200718:31

To asi nikdy nepůjde, aby GPU nahradilo, CPU. Účelem je, aby GPU pomáhalo, CPU jako akcelerátor (tak je módní těmto jednotkám říkat). Dnes se již ukazuje, že to nemusí být jen na úrovni HW rozšíření, ale postačí na úrovni SW rozšíření. Poslední dobou se s touto problematikou roztrhl pytel, uvidíme, co bude dál.

Odpovědět0 0

x_R | 25.6.200712:12

Nemyslel jste spise integery, misto skalary ? Se skalary umi pracovat kazdy GPU - je to jen specialni pripad vektoru. Je ovsem pravda, ze u starsich GPU to muze vest k nevyuziti celeho vypocetniho potencialu. U DX10 ovsem uz je podpora i integeru, takze to uz taky pomalu neplati. GPU oproti CPU moc nejde vetveni a skoky, primy nahodny pristup do pameti, reseni datovych navaznosti, ochrana pristupu do pameti, plna virtualizace pameti atp.

Odpovědět0 0

sanda | 28.6.200710:42

vite nekdo kolik za to chteji za ty 4 dll. Libraries (Ecolib) ??? Dik :-))

Odpovědět0 0

Federmann (487) | 29.6.200711:59

Nezbývá než se dotázat přímo výrobce http://www.gpucomputing.eu/index2.php?lang=en&id=5

Odpovědět0 0

Vladimir kacer | 29.6.200712:20

no ... to jsem take udelal, bohuzel neodpovidaji :-((

Odpovědět0 0

Federmann (487) | 29.6.200712:43

Zatím jsme na tom stejně

Odpovědět0 0

OBR_X | 24.6.200710:47

Co to je proboha za senila, vcelare? Ktery si nekde neco precte (rozumej spatne prelozi protoze neumi anglicky) a pak se to snazi tak jak by on chtel pretlumocit ctenarum! Vsechno co tady pise jsou absolutni hlouposti a blaboly ... no potes Panbuh! To je exot!

Odpovědět0 0

Peslo | 24.6.200716:15

pouč nás všechny, milý obříku ;-)

Odpovědět0 0

Federmann (487) | 24.6.200720:24

Vidím, že můj skalní fanoušek a bezmezný obdivovatel „OBR_X“ již našel cestu, aby mi vyjádřil podporu způsobem jemu vlastním.

Odpovědět0 0

OBR_x | 25.6.20078:34

staci si precist milion kritickzch postu nade mnou ... to nestaci?

Odpovědět0 0

Federmann (487) | 23.6.200711:06

AMD vizualizačními technologie https://www.svethardware.cz/art_doc-984E9204F1150919C12572F1006034BF.html

Odpovědět0 0

Rimmerak (8) | 22.6.200722:51

Zkoušel jsem si sosnout ten odkazovanej program a vyhodilo mi to výkon mýho PC 10GFlops. Což je hovadina. Nějak jim to špatně funguje.

Odpovědět0 0

x_R | 22.6.200723:15

Proc myslite ?

Odpovědět0 0

Federmann (487) | 22.6.200723:34

10GFlop/s je OK a co ten druhý GPU??

Odpovědět0 0

Palo M. | 23.6.20079:06

Ja som tiez ten program nepochopil. Test hadze iba jedno cislo.
Mne to vyhodilo okolo 9.6 GFlops pri funkcii SGEMM. Niekolkokrat za sebou to cisko bolo priblizne rovnake (aj ked bezal Prime95 s vysokou prioritou).
Potom som pustil DxDiag na 3D test. Ked som pustil test EcoApp potom: 17450.7 GFlops... uff! A potom uz mal stale iba take vysoke hodnoty... az kym som neukoncil EcoApp, potom mal zas okolo 12 GFlops :-S
Lepsie je to zrejme pustat na DGEMM, ten trva dlhsie.
Spustenie najprv: 1.53429 GFlops/1.39898s. Spustenie po teste Direct3D: 288.926 GFlops/0.007429s.
Povedal by som, ze ten EcoApp je dost neodladeny... Pravdepodobne vzdy pocita len na GPU, ale nejako nevie inicializovat grafiku do poriadneho modu, treba to zanho urobit manualne... A ako spustit rovnaky test na CPU, to nemam sajnu...
Inak mam A64 3200+ a GeForce 6800GS.

Odpovědět0 0

Federmann (487) | 23.6.20079:24

„Spustenie najprv: 1.53429 GFlops/1.39898s. Spustenie po teste Direct3D: 288.926 GFlops/0.007429s.“
Jednou to počítá, samotný CPU a podruhé je využito k výpočtu GPU (grafické karty). Je jasně vidět o kolik by se v některých výpočtech zvedl celkový výkon vašeho PC, pro tento konkrétní výpočet (aplikaci) by to bylo přibližně 289/1,53=189krát výkon vašeho CPU.

Odpovědět0 0

Palo M. | 23.6.20079:58

Nezda sa mi, ze by to prvy raz pocital CPU, pretoze:
Ci mi bezi Prime95 (na vysoku prioritu, cize urcite konzumuje poriadny kus CPU) alebo mi nebezi, vysledky su rovnake. Skusil som aj test dlheho archivu v Rar - zase ziaden rozdiel. Okrem toho, neviem si predstavit, co za individuum by naprogramovalo taketo spravanie programu - raz pocitat cez CPU, potom cez GPU, ale vzdy zobrazit iba jeden vysledok a pritom ani neindikovat, co je co?! Toho ani Francuzi nie su schopni...
Pritom by to bolo jednoduche: Program na CPU - vysledok, obdobny program na GPU - iny vysledok. Takisto by to malo indikovat: mas takyto CPU, takyto GPU, verzia DirectX v poriadku atd...
Nech sa nikto nehneva, ale mne to pripada ako nekvalitny grcovy softver so spickovym marketingom. Ja osobne by som sa hanbil vycapit take nieco na net.

Odpovědět0 0

Federmann (487) | 23.6.200715:58

Ještě jednou jsem oba prográmky zpustil
• EcoLib jsou jednoznačně knihovny, které je nutno načíst pro podporu počítání pomocí GPU.
• CPU-Tech Pricer je testovací program, ve kterém se zobrazuje výsledný výkon, ke spuštění slouží tlačítko Compute, ale vedle něj je přepínač GPU on/off!!!

Odpovědět0 0

Federmann (487) | 23.6.20079:41

Ta firma upravuje na zakázku takovým způsobem programy. V podstatě jde o přidání knihoven, které dovolí na dané výpočty zavolat GPU. Mělo by to dle mne pokročit směrem doplněním instrukční sady procesoru (SE???) a doplněním knihoven OS (což vlastně dělá EcoApp), čímž by se extrémně zvedly některé výpočty, hlavně v plovoucí čárce. Výsledkem by mohly být mnohonásobně nižší renderovací časy apod.

Odpovědět0 0

x_R | 23.6.200712:37

No pekne. A co jste tim jako chtel vlastne rict ? :)

Odpovědět0 0

Federmann (487) | 23.6.200713:09

Jenom to, že je jen otázka času, kdy to bude používáno í na běžném PC (instrukční sada procesoru a operační systém.

Odpovědět0 0

freon (24) | 24.6.200717:37

jojo, pokud meris kolik operaci s plovouci carkou ti udela procesor za 1 sekudnu (provadi se na fpu) tak ti pusteni prime95 (program neznam, ale podle nazvu operuje s prvocisly) moc gflops neubere kdyz procuje pouze s celymi cisly.

Odpovědět0 0

Palo M. | 25.6.20078:04

No to je zaujimave... Takze pocitanie celociselnych operacii podla teba velmi neuberie na operaciach v pohyblivej radovej ciarke?!

Uff, tak to si ma dostal. A ja som si doteraz myslel, ze ked je na procesore load 100%, je uplne jedno cim je procesor vytazeny, pre mna za mna aj celociselnymi operaciami...

No ale skus si pustit nejaky benchmark na FLOPSy ked ti v pozadi bezi nieco ine vytazujuce procesor (celociselnymi operaciami). A potom pustit ten isty benchmark bez toho zraca procesora... Asi budes prekvapeny :-)

Odpovědět0 0

Rimmerak (8) | 23.6.200712:52

To druhý mi vychází kolem 300 Gflops. To se mi zdá na Radeon X1650Pro docela hodně. Když HD2900XT má mít 0,5 Tflops.

Odpovědět0 0

Federmann (487) | 23.6.200712:56

je to tak akorát

Odpovědět0 0

olsen. | 23.6.200715:02

To spíš ne, protože x1950 má maximální teoretický obrat asi 350gflops. Ačkoliv je otázka, jak se ta čísla vyrábějí.

Kontrolní kód 700 - vyhrávám něco?

Odpovědět0 0

Henkye | 22.6.200720:40

Možná sem b1bej ale kdo mi přeloží větu "Architektura Core se pak vrací část kroku NetBurstu zpět." ? Je to vůbec česky ?

Odpovědět0 0

Federmann (487) | 22.6.200722:19

„před několika lety objevily architektury NetBurst a Hammer a zde někde lze nalézt zásadní rozchod dvou hlavních rivalů ve stylu zpracování informací“
„Architektura Core se pak vrací část kroku NetBurstu zpět“

Nebylo účelem velmi zdlouhavě vysvětlovat, ale vysvětlím:

• Boj o hranici 1GHz, ale i o hranici 2GHz vyhrál Intel, za cenu opuštění paralelizace výpočtu, která byla běžná u Pentia III, a navýšení frekvence.
• AMD se od K7, která byla blízká P3, se dále ubírala zcela jinou cestou, snížila kmitočet a rozšířila sběrnice (3*HyperTransport+čtyř-kanálový řadič RAM) včetně použití 64bit architektury a vznikla K8. (Intel má pouze 64bit instrukce.)
• Výkonnostně převládl HAMMER (K8) a NetBurst se na vysokých frekvencích značně přehříval.
• Nová architektura Intelu Core, navazuje na P3 a v paralelizaci dokonce předstihuje K8.
• Veškeré kroky ve vývoji architektury NetBurst k vyšším frekvencím a menší paralelizaci, byly v podstatě zahozeny. Myšlenky velmi podobné architektury a neustále se zmenšujícím rozměru nepřinesly neustále se zvětšující frekvence.

Odpovědět0 0

x_R | 22.6.200722:40

Omlouvam se za neustalou kritiku, ale kdyz pominu slohovou uroven, tak je zde nekolik faktickych chyb:

1. boj o 1 GHz vyhralo AMD a ne Intel
2. radic RAM u K8 je doukanalovy a ne 4
3. o paralelizaci, sbernice ani 64-bitovost vubec nejde, klicova je zde delka pipeline (cim delsi, tim vyssi frekvence, ale mensi efektivita)

Odpovědět0 0

Federmann (487) | 22.6.200723:32

• Přesné zapojení RAM [odkaz, pro zobrazení se přihlaste] je 4*66bit, nebo 2*68bit, záleží na úhlu pohledu, dle zapojení je to však naprosto jasné.
• Datová šířka je počet vodičů po, kterých mohou být současně přenášeny data…
• Pokud vezmu jenom RAM+HT= 2*68+4*16=200 oproti FSB=64
• Paralelizace výpočtu závisí nejenom na pipelline, ale i na datové šířce..., bavíme se o počtu vláken…

• Pixel Shaders může být dlouhý až 65tis instrukcí frekvenci má nízkou a jakou má efektivitu, oproti pipelline dlouhé cca 10-30 a vysoké frekvenci.

Odpovědět0 0

x_R | 23.6.20070:29

No, HT neni pametovy radic, ze.. a jak jsou presne elektricky zapojeny pametove moduly je uz docela sumafuk. Pravdou naopak je, ze K8 maji vlastne interne pouze jediny pametovy radic, ktery ma sirku 64b u Socketu 754 a 128b u Socketu 939. Az K10 bude mit fakticky 2 nezavisle 64b radice.
Nevim co myslite poctem vlaken, ale soucasne dualcore maji vlakna 2 a nektery Intely pri pouziti HyperThreadingu az 4. S datovou sirkou to nema nic spolecneho. Samozrejme, uvnitr procesoru je vic paralelnich vypocetnich jednotek - treba Athlony maji 3 integer a 2 FPU (nepocitam AGU a FPSTORE), ale dulezitejsi, nez jejich pocet, je jak dokazou byt vyuzity.
Pixel shadery samozrejme muzou mit az 64K instrukci, ale to neznamena, ze maji tak dlouhou pipeline :). To by pak ji CPU musely mit nekonecne dlouhou :). GPU ovsem maji skutecne velmi dlouhe pipelines, protoze si to (na rozdil od CPU) muzou dovolit. U GPU totiz nehrozi pipeline stall v pripade mispredikce vetveni a taky nevadi dlouhe latence, protoze se pocita velke mnozstvi pixelu soucasne. CPU jsou konstruovany pro seriove zpracovani vetviciho se programu s nahodnym pristupem do pameti a to je prave ten rozdil. Proto nelze porovnavat architekturu CPU a GPU. U CPU plati, ze delsi pipeline umoznuje vyssi frekvence (protoze se pracuje po mensich "kouscich"), ale zase je problem s jejim plnym naplnenim a castymi "vylevanimi". Nizka frekvence GPU je dana vysokym poctem tranzistoru (produkujicih hodne tepla) a nizsi urovni rucniho vyladeni a kvality vyroby. Vyladeni CPU na vysoke frekvence trva i roky...

Odpovědět0 0

ASD_ | 23.6.20078:31

Vedsinou suhlasim. Len k tej datovej sirke, pri sucasnych AMD procesoroch je 128bit pristup k DDR2(max 800MHz) to je 12.8GB/s + HT to je 8GB/s. Kdezto u Intelu je sice priepustnost RAM <-> chipset 12.8GB/s ale prepustnost FSB(1066MHz), chipset <-> CPU je ~8.5GB/s, prave preto sa u Intelu vyuziva v sucasnosti velka cache a rozne prediskcne algoritmy, ale pri viac procesorych systemoch to ziavne moc dobre nefunguje.
PS: Vsetky hodnoty co som uvadzal platia pre sucasnu generaciu CPU v nepretaktovanom stave.

Odpovědět0 0

Federmann (487) | 23.6.20079:56

HT je u stolních jeden u serverových tři a u nové K10 mají být dokonce čtyři, ale ne na frekvenci 2GHz, ale na frekvenci přes 5GHz, takže propustnost HT dnes v součtu nějakých 80GB/s, DDR2 tyky výš a přiblížíme se 100GB/s. samozřejmě FSB rovněž nespí a při 1.666MHz se její propustnost dostane někde k 12GB/s, každý si může teoretickou propustnost přesně spočítat, ale rozdíl 4*HT+Řadič vs FSB je patrný.

Odpovědět0 0

Federmann (487) | 23.6.20079:11

„No, HT neni pametovy radic, ze.. a jak jsou presne elektricky zapojeny pametove moduly je uz docela sumafuk. Pravdou naopak je, ze K8 maji vlastne interne pouze jediny pametovy radic, ktery ma sirku 64b u Socketu 754 a 128b u Socketu 939. Az K10 bude mit fakticky 2 nezavisle 64b radice. Nevim co myslite poctem vlaken,“
.
Zde je zásadní rozdíl, který se vůbec nebere v úvahu, co stihne přenést paměťový řadič a HT, musí u staré architektury přenést FSB a až následně se vše rozdělí v severním mostu.
.
Počet vodičů vynásobený frekvencí udává propustnost (zde je nutno sečíst všechny propustnosti), ale počet stejných vodičů taky udává adresovací prostor (u řadiče pamětí je to obrovský rozdíl)
• 2*64bit či 1*128bit ve vodičích zdánlivě stejné i v propustnosti, ale v adresovacím prostoru je tomu trochu jinak 20*2128=2128,ale: 21*264=265
• jak jsem napsal u K8 je to ve skutečnosti: 4*66bit, čili 22*(22*264)=268, tedy adresovací prostor je dán 68bity, ale datová propustnost by byla odvozena od 2*68bit=136.
• Navíc pokud mám sběrnici například 64bit tak přenesu 64bit informaci v jednom kroku, ale na 32bit sběrnici zajistím přenos dvěma kroky…
A vlákno je vlastně běžící program uvnitř procesoru, pokud běží, pak nemůže začít pracovat procesor na dalším programu. Pokud procesor umí více vláken, pak může procesor pracovat současně na vice operacích současně. K10 by měla umět čtyři vlákna na jádro a K8 umí dvě.

Odpovědět0 0

Federmann (487) | 23.6.20079:29

jen se to špatně zobrazilo, má tam vždy být 2 na mocninu, tedy hned první 22 má být 2 na druhou.

Odpovědět0 0

PetFish (188) | 23.6.200710:08

Nemuzu si pomoct, ale mam pocit, ze ty veci nejak motate dohromady a vase informace jsou mnohdy nepresne ci vylozene chybne.
Vase vysvetelni ohledne thredu mi pripada velmi zjednodusene a nesparvne.
K definici threadu (vlakna). Pokud vim dnesni PC procesory pokud maji jen jedno jadro a nedisponuji technologii virtualizujici jader vice (P4-HT) umi v jednu chvili zpracovavat jen jednu radu instrukci - thread (i kdyz pri tom mohou uvnitr paraelne uzivat vice jednotek ALU,FPU,...).
K8 je jednojadrovy procesor a jako takovy muze zpracovavat vice threadu pouze jejich prepinanim ... i kdyz v case muze prepinat mezi mnoha thready.

Odpovědět0 0

x_R | 23.6.200712:22

Ano, presne tak. Kolega ma naprostou pravdu. Thread je jedno programove vlakno (psane programatorem). SingleCore CPU zpracovavaji 1 thread a dualcore 2 thready. To, ktery thread pobezi na kterem CPU urcuje scheduler operacniho systemu. Pouze nektere Intely (kdyz pocitam pouze x86 CPU) maji HyperThreading, coz je technologie, ktera simuluje (bohuzel bez zachovani priorit) 2 virtualni jadra na jednom hardwarovem.

Odpovědět0 0

Federmann (487) | 23.6.200712:43

Není zde prostor vše vysvětlovat, ale právě HT je určen pro spojení s ostatními CPU, AMD uvádí až 64, je tedy možno mít na desce až 64 procesorů ať již jedno-jádrových, dvou-jádrových nebo za chvíli čtyř-jádrových, tudíž dnes je možno spojit až 336 jader, běžné desky jsou čtyř-procesorové, tedy mohou spojit 16jader. Máte pocit, že se nejedná o více-vláknový výpočet? Pro řízení pak AMD vytvořila virtualizační technologie https://www.svethardware.cz/art_doc-984E9204F1150919C12572F1006034BF.html.
.
Odpověď Intelu byla jejich softwarová představa více jádrového procesoru (P4-HT), pokud by použili dnešní Quad-Core a tuto technologii tak se bude, CPU tvářit jako by byl 8jádrový, ale stále omezený jednou FSB.
.
Mám pocit, že paralelizace, ale i množství vláken může být u AMD poněkud větší než u AMD.
.
Když se vrátím k tématu tak grafické karty AMD-ATI mají až 320 stream procesorů, při zapojení CrossFire se tedy spojí až 1280 takových procesorů. Zde je paralelizace výpočtu ještě markantnější.
.
Jednotlivé, nejmenší detaily pak zde nemá smysl rozebírat a pitvat. Ty můžeme rozebírat, při konkrétním popisu zpracování informací jednotlivými jednotkami CPU.

Odpovědět0 0

PetFish (188) | 23.6.200715:36

Neberte toto prosim jako osobni urazku, ale jako konstruktivni kritiku.
Myslim, ze clovek pisici na SHW by se mel umet srozumitelne vyjadrovat a logicky reagovat a kdyz dostane otazku v diskuzi srozumitelne a fakticky spravne ji zodpovedet.
Kdyz procitam diskuzi, mam pocit, ze vzdy nahazite nekolik pojmu na hromadu, bez ladu a skladu a kdyz vas nekdo upozorni na faktickou chybu nebo Vas pozada o vysvetleni, prihodite dalsi pojmy, kterymi vse spis vice zamotate.
Viz priklad vyse ... ja se bavim o vlakne a inteli technologii Hypertransport (HTT ... zapomel jsem na jedno T ve zkrace) v reakci na tvrzeni ze K8 umi 2 vlakna upozornim, ze singlecore K8 umi zpracovavat jen jendo vlakno.
Vy na to odpovite pro me zcela nepochopitelne AMD technologii hypertransport (HT), coz je ale o uplne necem jinem ... nema to s vlakny temer nic spolecneho - HT je sbernice pro komunikaci procesoru a dalsich zarizeni.
Prece nemuzete michat vlakna v ramci jadra/jader procesoru a v ramci multiprocesoringu ... a pokud ano, pak je vyrok K8 umi jadra 2 zcela nesmyslny, protoze dnesni dualcore dualprocesor umi pri teto logice jadra 4 a dualcore ctyrprocesor umi vlaken 8.
Aby nevzniklo nedorozumeni - souhlasim, ze koncepce HT je pro multiprocesoring vyhodnejsi nez FSB, souhlasim, ze viceprocesorovy pocitac muze zpracovavat vice vlaken.

Prosim zkuste priste odpovidat na otazku, svoje prispevky ponekud lepe strukturovat a take je nezapomente zkontrolovat (viz Vase tvrzeni "Mám pocit, že paralelizace, ale i množství vláken může být u AMD poněkud větší než u AMD")

Odpovědět0 0

Federmann (487) | 23.6.200720:35

Děkuji za odpověď, za překlep se samozřejmě omlouvám. Jen ve zkratce:
Hlavním tématem byl výpočet pomocí GPU a jeho výhody, mezi které nesporně patří velká paralelizace výpočtu, pokud vezmu vlákna tak každému jádru odpovídá jedno vlákno…
Počítání pomocí CPU je v některých případech značně pomalejší, navíc má mnohem méně jader a tím může zpracovávat méně vláken…
Pouze jsem poukázal na bod vzniku odlišnosti architektur, CPU a GPU, ale taky na okamžik vzniku odlišnosti architektur hlavních výrobců procesorů. Intel šel cestou vyšších frekvencí a AMD velkou paralelizací. Zde jsem neměl samozřejmě na mysli žádný konkrétní procesor, ale celou platformu a možnosti, které platforma vytváří. Grafické karty šly v paralelizaci výpočtu ještě dál, opět nemám na mysli žádnou konkrétní kartu, ale trend, který na poli grafických karet převládá.
Samotný článek není zaměřen na konkrétní procesor, ani na konkrétní grafickou kartu, ale ukazuje další možný směr vývoje či nárůstu výkonnosti PC pouhým softwarovým zásahem. Pokud dá někdo odborný dotaz, mám za to, že má jisté odborné znalosti. Pokud jeho znalosti přecením, pak mu budu vysvětlovat, to co dobře zná, pokud jeho znalosti nedocením, pak použiji některé výrazy či pojmy, kterým samozřejmě nerozumí. Jako další možnost nedorozumění je, že tazatel má na mysli konkrétní procesor a já možnosti, které skýtá. To je situace, která právě nastala.
Vy jste měl na mysli jedno vlákno a k němu jedno jádro a já více vláken a více jader, ale jak jsem k nim došel, jsem považoval za samozřejmost. Tím mohl vzniknout nesprávný dojem, že nerozlišuji druh vzniku více vláken. Ale já jsem neměl potřebu rozlišovat možnosti jak toho dosáhnout, proto jsem je ani neuváděl. Pro mne bylo spíše rozhodující, že Intel je omezen maximálním počtem, AMD je omezeno maximálním počtem a grafická karta je omezena maximálním počtem, tato počty se od sebe značně liší, dokonce v jednom řádu, je zcela jedno zda Intel složí Quad-Core, nebo dokonce dvě a ještě použije virtualizaci jader, kterou užíval dříve. Předpokládám, že při této úvaze nebude čtenář uvažovat cestou, že AMD použije jedno-jádrový procesor a tím je mnohonásobně vyšší paralelizace u Intelu. Vše se samozřejmě vztahuje k PC, jak jej známe. Extrémy spojování jako velké servery či superpočítače sem nepatří.
Postačí taková odpověď?

Odpovědět0 0

x_R | 23.6.200723:30

Ja bych jeste chtel upresnit, ze GPU nepracuje s zadnymi thready, aspon ne s thready ve smyslu CPU. CPU thready jsou samostatna programova vlakna, ktera jsou vecemene seriove provadena procesorem. U nejmodernejsich GPU zavedlo pojem "thread" marketingove oddeleni, aby nejakym zpusobem popsalo to, co se deje uvnitr GPU, kde se paralelne pocitaji jednotlive pixely a stav jednoho rozpracovaneho pixelu byl nazvan "thread". S CPU thready to ale moc spolecneho nema.

Odpovědět0 0

PetFish (188) | 24.6.200713:08

Ano, takovato odpoved uz je jasna.
Nicmene pripada mi prilis zjednodusujici Vase uchopeni pojmu paraelizace a zpusob porovnanvani vykonu.
P4 slo na urovni jadra mimo jiné cestou zvysovani frekvence na frekvenci (souhlasim)
K8 slo na "paraelizaci", ale byla to paraelizace pod urovni vlakna (IPC) a rozdílná architektura umoznujici efektivněji multiprocesoring ... prave tam vidim nejvetsi problem z hlediska Vaseho uchopeni tematiky: paraelizace je siroky pojem a v ramci teto tematiky bych videl 3 druhy paraelizace:
- u CPU pod urovni vlakna (IPC)
- u CPU na urovni vlakna (vice threadu, vice jader, vice CPU)
- u GPU, ktere je architektonicky uplne odlisne od CPU
Vy tyto tri pojmy smichate do jednoho a reknete vetsi paraelizace = vetsi vykon ve FLOPs ... jenze to je pravda pouze pokud pojem paraelizace definuji odvozene od vykonu ve FLOPS (Vykon/pocet cyklu za jednotku casu), ale to je pak definice kruhem (pouze pouziti jinych slov na popis ciloveho stavy, kdy GPU je vykonejsi z hlediska operaci v plovouci desetinne carce nez CPU).
Jinak je dopad paraelizace na uroven vykonu platny pouze pri zmenach ceteris paribus. Mezi ruznymi architekturami jsou pak vztahy mezi vykonem a stupnem "paraelizace" ponekud slozitejsi a skutecny rozdil ve vykonu vyplyva z architektury, kdy GPU je v podstate specializovany matematicky procesor (vykony pro urcite druhy zpracovani dat), zatim co CPU tuto specializaci postrada. Rozdily mezi CPU pak vyplyvaji zejmana z poctu a vykonu FPU jednotek v ramci jadra (a pripadne z efektivity a rozsahu multiprocesoringu).
Nyní k faktickym chybam
- Za opravdu velkou chybu povazuji v clanku smichani pipeline a delky shaderoveho programu.
- Jak jiz vyse někdo poznamenal AMD mělo prvni 1ghz procesor
Další velmi sporne body:
- myslenku s 4kanalovym radicem u K8 jsem nepochopil
- srovnavani podobnosti a rozdilu architektur K7, K8, P3 a P4 (moc nesouhlasim s tim, která CPU vidite jako obdobna a která jako rozdílná)
- vykonostni prevaha K8 nad P4 mi ve FLOPS unika - pokud merim přes rating, jsou K8 a P4 priblizne stejne vykone, pouze pokud merim přes realnou frekvenci je K8 vykonejsi
- není vhodne srovnavat „vlakno“ stream procesoru GPU a vlakno bezici nad jednim jadrem CPU
- a dalsi, ale to by bylo na A4

Pokud to mam shrnout svůj nazor: clanek by mel asi skončit na urovni konstatovani, ze GPU je vykonejsi a nepokouset se analyzovat důvod vyssiho vykonu přes „paralelizaci zpracovani“, protože to by si vyzadalo rozebrat problematiku do obrovske sirky a hloubky (frekvence, datove sirky, latence, delky pipeline, architektura, …). Takto je clanek velmi kontroverzni a pro „laika“ v problematice spise matouci (a to se tyka i většiny vysvetlujicich prispevku v diskuzi pod clankem).

Odpovědět0 0

Federmann (487) | 24.6.200718:16

Máte v podstatě pravdu, jenže dle vás by taková aktualita správně vypadala:
.
Firma GPU-Tech počítá pomocí GPU, protože GPU má větší výkon než CPU.
.
Někdo by však vzal nějakou S3 a tvrdil by, že jeho Intel Quad-Core je výkonnější a nemám pravdu.
Zkuste napsat vlastní aktualitu, podrobit ji vlastní kritice a pak mi ji pošlete, rád se přiučím a třeba i pozměním svůj styl.

Odpovědět0 0

PetFish (188) | 25.6.200717:31

No pokud jsou dodatecne informace nespravne nebo neprinaseji dalsi informaci, pak je lepsi jedna veta. A pokud mam pravdu, pak asi stoji za to priste venovat psani aktuality vice prace.

Vlastni akualitu se mi psat opravdu nechce, myslim ze udelat to dobre (ne prelozit neco z inquireru) je celkem prace a vyzaduje dokonale znalosti na poli aktuality. Uprava teto by mi zabrala nekolik desitek minut casu, nez bych si overil svoje hypotezy z dalsich zdroju, tak jak jsem to delal, kdyz jsem reagoval v diskuzi.

BTW: Kdyz poukazu na to ze v obchode maji tvrde rohliky, taky mi prodavac nerekne at teda upecu vlastni, at vidi jak ma spravny rohlik vypadat, proste se predpoklada, ze prodavac by toto mel vedet ;).

Odpovědět0 0

Federmann (487) | 25.6.200717:56

Toto je problematika na napsání knihy. Původně jsem vám chtěl odpovědět velmi obsáhle, ale pak jsem usoudil, že bych stejně vše nevysvětlil, tak jsem to smazal a odpověděl velmi stručně.

Navíc článek měl pouze poukázat na firmu, která vše řešila jen na úrovni SW a nepotřebovala tak ani další, ne tak speciální HW.

Diskuze se pak ubírala pouze směrem HW detailů, kde jsem se nechal zbytečně vtáhnout…
Další následovník s vlastním řešením je Intel https://www.svethardware.cz/disc_doc-N165DC3A3B35FCA06C1257304005FEE5A.html
Jinak díky za příspěvky do diskuze.

Odpovědět0 0

kwackina | 22.6.200716:47

"NetBurst stavěl na rychlosti a Hammer na datové šířce"
No pekne :D

Odpovědět0 0

Kutrix (122) | 22.6.200720:12

Co se ti na tom nezdá Intel se přece kasal 10 GHz procesory....., někdo tady zapomíná.....

Odpovědět0 0

x_R | 22.6.200714:15

Federmanne, ty uz to konecne zabal - kdo ma tu snusku blabolu porad cist ?!? Kdyz tomu nerozumim, tak se nepoustim do vysvetlovani a uz vubec ne zadnych uvah...

Odpovědět0 0

olsen. | 23.6.200714:59

No, nechci inzultovat, ale z vyšich příspěvků by asi kdekterý redaktor nespal, určitě by jim prospělo, kdybyste se trochu zabýval čitelností a stylistikou. Ale uznávám, že je tohle technický web, takže lze leccos překousnout. Ale aspoň trochu byste ten styl mohl vylepšit, bylo by to fajn.

(Se vší úctou!)

Odpovědět0 0

Boguš (916) | 22.6.200713:31

... by mě zajímalo co znamená to sedlo v křivce vývoje výkonu GPU ..... ? Jako že výkon GPU se něhem roku 2004-2005 nezvedl ale mírně snížil ..... ?!

Odpovědět0 0

Federmann (487) | 22.6.200713:35

Záleží, jak k tomu tvůrci došli, spíše tam vývoj stagnoval, pokud by to dělali z prodaných či vyrobených GK pak se mohlo prodat či vyrobit víc s nepatrně menším výkonem.

Odpovědět0 0

BigBadKutrix | 25.6.200718:48

To znamená, že výkon GPU se realitivně k výkonu CPU klesl, nic víc.
Nedá se sem přihlásit. Celkem mne to s**e

Odpovědět0 0

Zajímá Vás tato diskuze? Začněte ji sledovat a když přibude nový komentář, pošleme Vám e-mail.

Nový komentář k článku

Pro přidání komentáře se přihlaste (vpravo nahoře). Pokud nemáte profil, zaregistrujte se pro využívání dalších funkcí.

Doporučujeme z našich magazínů